從過去自然語言人工智慧看目前的 OpenAI ChatGPT

2023 iThome 鐵人賽

DAY 1

AI & Data

OpenAI 從提示工程（Prompt Engineering)到語義核心(Semantic Kernel)的實踐系列第 1 篇

15th鐵人賽 #openai #llm #ai

Ian

2023-09-16 23:01:26

13768 瀏覽

分享至

前言

這系列打算談談關於ChatGPT應用面的開發，主軸聚焦在提示工程以及開源的框架Semantic Kernel運用，然而由於時間緊湊，文章順序只能儘可能有連帶關聯順序性(但並不保證)，大家可以採一種較輕鬆的方式看待這系列文章，此外我也並不打算討究太多高深論文層面的知識，一來自認專業度不足以高談闊論，二來畢竟這是以面向開發應用面為主的內容，理論的東西就留給更專業人士或教授級專家去論述，實在不宜班門弄斧啊。

這一年自然語言人工智慧的變化

拜深度學習技術及硬體算力的突破，幾年前人工智慧突然再次活躍起來，聚焦在影像、自然語言、聲音領域，然而幾年下來，相較於影像識別，自然語言似乎有點雷聲大雨點小，這情況也可以從多數的Chatbot應用可以應證，多數是單向傳遞，沒有雙向交談功能，少數有雙向交談的Chatbot應用也屬於是單一任務為主。這顯示人工智慧在自然語言文字的處理上，不若想像中的容易。

自然語言處理（NLP）身為人工智慧領域中的一個重要分支，其用途在於讓機器能夠理解和生成人類語言。而相關的技術已發展許久，早期的模型通常基於傳統規則或template樣板的處理，這樣的方式在處理複雜和多變的語言時會變得非常脆弱。其次，自然語言種類非常多，當缺乏大量的訓練數據和強大的計算資源時，這些模型就往往難以捕捉語言間的細微差異和語境。所以早期的NLP技術通常需要大量的手工調整和優化，這使得它們在實際應用中變得非常繁瑣和耗時。

即便過去像是Microsoft推出的LUIS（Language Understanding Intelligent Service，基於雲的NLP服務），最終於仍然沒有引起大量夠智慧型的Chatbot應用出世，LUIS本身相較過去的模型，不需要從頭訓練起來，降低了不少進入門檻，LUIS的主要特點是其基於規則的設計和模板匹配技術，透過少量資料的標注技術，進行機器學習做模型的再訓練，可以產出專用特定任務的模型，但事實上意圖的訓練範例資料設計仍是不容易，且需要一定的經驗，否則極容易變成字典型式，塞入了一堆資料卻得不到好的效果。

相比之下，GPT模型基於Transformer架構，它使用了大量的文本資料進行預訓練(真的量很大)，具有能夠生成連貫且自然的文本內容。與LUIS不同，GPT模型不依賴於規則或樣板，而是利用深度學習技術來理解和生成內容。

於是乎 OpenAI GPT模型的出現，又為Chatbot應用或者說是自然語言人工智慧的應用，帶起另一種方式的概念，並且更降低了進入的門檻，因為 GPT模型原生就像是一個什麼都會的通材，這意味著可以在多種NLP任務上都有出色的表現，而不僅僅是問答或文本的生成，並且雖然可以使用fine tune機制對它做微調訓練，但多數應用並不需要如此。

GPT系列的演進：從GPT-1到GPT-4

OpenAI的GPT系列模型並非一開始就像現在看到的這強大，從GPT-1到GPT-4，每一代模型都有新的技術突破，以下，重點式的探討這四代模型之間的主要差異和改進。

GPT-1，GPT系列的初代模型，參數量是4代裡最少的，然而GPT-1首次展示以Transformer架構在文本生成任務上的優勢。相較於過去的語言模型，GPT-1能夠進行問答及文本分類任務。
GPT-2，參數量更多，在文本生成上的能力超越GPT-1模型，它可以生成長篇的文章，所使用的訓練資料集更加多樣化(泛化)，所以它可以表現在多種NLP任務上，例如文本生成、翻譯、文章摘要。
GPT-3，參數量又更多了，最大的亮點是它可以進行文本生成、程式碼生成、問答、翻譯等多種任務，並且GPT-3的基礎模型像是ada、babbage、curie、davince都是可以進行微調（fine tune）的模型，GPT-3幾乎應付任任何領域的任務，可以稱為是一種通才式的模型，相較以往的專才型的模型，更讓人期待。
GPT-3.5，又稱ChatGPT，是基於GPT-3模型加上聊天情境的特定版本模型並且納入了人類反饋的強化學習（見人說人話，見鬼說鬼話的表現），生成的內容投以人類的喜好，因此生成的內容品質更好。
GPT-4，參數量最多，目前GPT系列最大且強力最強的模型，是一個多模態的模型，可支援圖像的輸入（但目前尚未開放），可用於文本的生成、圖的生成與理解等，並改善了幻覺現象(注意:幻覺並未完全消除)，也是目前各項測試表現最好的模型。